智能论文笔记

AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition

Yulin Wang , Yang Yue , Xinhong Xu , Ali Hassani , Victor Kulikov , Nikita Orlov , Shiji Song , Humphrey Shi , Gao Huang

分类：计算机视觉 | 人工智能 | 机器学习

2022-09-27

最近的研究表明，减少时间和空间冗余都是有效的视频识别方法的有效方法，例如，将大多数计算分配给与任务相关的框架或每个帧中最有价值的图像区域。但是，在大多数现有的作品中，任何一种类型的冗余通常都是用另一个缺失建模的。本文探讨了在最近提出的ADAFOCUSV2算法之上的时空动态计算的统一配方，从而有助于改进的ADAFOCUSV3框架。我们的方法仅在一些小但有益的3D视频立方体上激活昂贵的高容量网络来降低计算成本。这些立方体是从框架高度，宽度和视频持续时间形成的空间中裁剪的，而它们的位置则以每样本样本为基础的轻加权政策网络自适应地确定。在测试时间，与每个视频相对应的立方体的数量是动态配置的，即，对视频立方体进行顺序处理，直到产生足够可靠的预测为止。值得注意的是，可以通过近似可插入深度特征的插值来有效地训练adafocusv3。六个基准数据集（即ActivityNet，FCVID，Mini-Kinetics，Something Something V1＆V2和潜水48）上的广泛经验结果表明，我们的模型比竞争性基线要高得多。

translated by 谷歌翻译

ActiveNeRF: Learning where to See with Uncertainty Estimation

Xuran Pan , Zihang Lai , Shiji Song , Gao Huang

分类：计算机视觉

2022-09-18

最近，神经辐射场（NERF）在重建3D场景并从一组稀疏的2D图像中综合新视图方面表现出了有希望的表演。尽管有效，但NERF的性能受到训练样品质量的很大影响。由于现场有限的图像，Nerf无法很好地概括到新颖的观点，并可能崩溃到未观察到的区域中的琐碎解决方案。这使得在资源约束的情况下不切实际。在本文中，我们提出了一个新颖的学习框架Activenerf，旨在模拟一个3D场景，并具有限制的输入预算。具体而言，我们首先将不确定性估计纳入NERF模型，该模型在很少的观察下确保了鲁棒性，并提供了NERF如何理解场景的解释。在此基础上，我们建议根据积极学习方案将现有的培训设置补充新捕获的样本。通过评估给定新输入的不确定性的降低，我们选择了带来最多信息增益的样本。这样，可以通过最少的额外资源来提高新型视图合成的质量。广泛的实验验证了我们模型在现实和合成场景上的性能，尤其是在稀缺的训练数据中。代码将在\ url {https://github.com/leaplabthu/activenerf}上发布。

translated by 谷歌翻译

Learning to Weight Samples for Dynamic Early-exiting Networks

Yizeng Han , Yifan Pu , Zihang Lai , Chaofei Wang , Shiji Song , Junfen Cao , Wenhui Huang , Chao Deng , Gao Huang

分类：计算机视觉

2022-09-17

早期退出是提高深网推理效率的有效范例。通过构建具有不同资源需求的分类器（出口），此类网络可以在早期出口处输出简单的样本，从而消除了执行更深层的需求。尽管现有作品主要关注多EXIT网络的建筑设计，但此类模型的培训策略在很大程度上没有探索。当前的最新模型在培训期间对所有样品进行了相同的处理。但是，在测试过程中的早期外观行为被忽略了，从而导致训练和测试之间存在差距。在本文中，我们建议通过样品加权来弥合这一差距。从直觉上讲，简单的样品通常在推理期间在网络早期退出，应该为培训早期分类器提供更多贡献。但是，晚期分类器应强调硬样品的培训（主要是从更深层退出）。我们的工作建议采用一个体重预测网络，以加重每个出口处不同训练样本的损失。这个重量预测网络和骨干模型在具有新的优化目标的元学习框架下共同优化。通过将推断期间的适应性行为带入训练阶段，我们表明拟议的加权机制始终提高分类准确性和推理效率之间的权衡。代码可在https://github.com/leaplabthu/l2w-den上找到。

translated by 谷歌翻译

The Neural-Prediction based Acceleration Algorithm of Column Generation for Graph-Based Set Covering Problems

Haofeng Yuan , Peng Jiang , Shiji Song

分类：机器学习

2022-07-04

设定覆盖问题是一类重要的组合优化问题，在许多领域都广泛应用和研究了。在本文中，我们提出了一种用神经预测（CG-P）的改进的列生成算法，用于解决基于图的集合涵盖问题。我们利用基于图神经网络的神经预测模型来预测每个边缘最终解决方案中的概率。我们的CG-P算法构建了一个还原的图，该图仅包含具有较高预测概率的边缘，并且该图还原过程显着加快了解决方案过程。我们在铁路乘员计划问题上评估了CG-P算法，它的表现优于基线列的生成算法。我们为我们的CG-P算法提供了两种解决方案模式。在最佳模式下，我们可以获得具有最佳保证的解决方案，同时将时间成本降低到63.12％。在快速模式下，我们可以在仅2.91％的计算时间内获得具有7.62％最佳差距的亚最佳解决方案。

translated by 谷歌翻译

Global Model Learning for Large Deformation Control of Elastic Deformable Linear Objects: An Efficient and Adaptive Approach

Mingrui Yu , Kangchen Lv , Hanzhong Zhong , Shiji Song , Xiang Li

分类：机器人

2022-05-09

可变形线性对象（DLOS）的机器人操纵在许多领域都具有广泛的应用前景。但是，一个关键问题是获得确切的变形模型（即机器人运动如何影响DLO变形），这些模型在不同的DLOS之间很难计算和变化。因此，DLOS的形状控制具有挑战性，尤其是对于需要全球和更准确模型的大型变形控制。在本文中，我们提出了一种离线和在线数据驱动的方法，用于有效地学习全球变形模型，从而可以通过离线学习进行准确的建模，并通过在线适应进行新的DLOS进行进一步更新。具体而言，由神经网络近似的模型首先是在随机数据的离线训练中，然后无缝迁移到在线阶段，并在实际操纵过程中进一步在线更新。引入了几种策略，以提高模型的效率和泛化能力。我们提出了一个基于凸优化的控制器，并使用Lyapunov方法分析系统的稳定性。详细的仿真和现实世界实验表明，我们的方法可以有效，精确地估计变形模型，并在2D和3D双臂操纵任务中对未经训练的DLO进行大型变形控制，而不是现有方法。它仅使用仿真数据进行离线学习来完成所有24个任务，并在现实世界中不同的DLO上具有不同的所需形状。

translated by 谷歌翻译

Glance and Focus Networks for Dynamic Visual Recognition

Gao Huang , Yulin Wang , Kangchen Lv , Haojun Jiang , Wenhui Huang , Pengfei Qi , Shiji Song

分类：计算机视觉 | 人工智能 | 机器学习

2022-01-09

空间冗余广泛存在于视觉识别任务中，即图像或视频帧中的判别特征通常对应于像素的子集，而剩余区域与手头的任务无关。因此，在时间和空间消耗方面，处理具有相等计算量的所有像素的静态模型导致相当冗余。在本文中，我们将图像识别问题标准为顺序粗致细特征学习过程，模仿人类视觉系统。具体地，所提出的浏览和焦点网络（GFNET）首先以低分辨率比例提取输入图像的快速全局表示，然后策略性地参加一系列突出（小）区域以学习更精细的功能。顺序过程自然地促进了在测试时间的自适应推断，因为一旦模型对其预测充分信心，可以终止它，避免了进一步的冗余计算。值得注意的是，在我们模型中定位判别区域的问题被制定为增强学习任务，因此不需要除分类标签之外的其他手动注释。 GFNET是一般的，灵活，因为它与任何现成的骨干网型号（例如MobileCenets，Abservennet和TSM）兼容，可以方便地部署为特征提取器。对各种图像分类和视频识别任务的广泛实验以及各种骨干模型，证明了我们方法的显着效率。例如，它通过1.3倍降低了高效MobileNet-V3的平均等待时间，而不会牺牲精度。代码和预先训练的模型可在https://github.com/blackfeather-wang/gfnet-pytorch获得。

translated by 谷歌翻译

Vision Transformer with Deformable Attention

Zhuofan Xia , Xuran Pan , Shiji Song , Li Erran Li , Gao Huang

分类：计算机视觉

2022-01-03

变压器最近在各种视觉任务上表现出卓越的性能。大型有时甚至全球，接收领域赋予变换器模型，并通过其CNN对应物具有更高的表示功率。然而，简单地扩大接收领域也产生了几个问题。一方面，使用致密的注意，例如，在VIT中，导致过度的记忆和计算成本，并且特征可以受到超出兴趣区域的无关紧要的影响。另一方面，PVT或SWIN变压器采用的稀疏注意是数据不可知论，可能会限制模拟长距离关系的能力。为了缓解这些问题，我们提出了一种新型可变形的自我关注模块，其中以数据相关的方式选择密钥和值对中的密钥和值对的位置。这种灵活的方案使自我关注模块能够专注于相关区域并捕获更多的信息性功能。在此基础上，我们呈现可变形的关注变压器，一般骨干模型，具有可变形关注的图像分类和密集预测任务。广泛的实验表明，我们的模型在综合基准上实现了一致的改善结果。代码可在https://github.com/leaplabthu/dat上获得。

translated by 谷歌翻译

Exploring the Equivalence of Siamese Self-Supervised Learning via A Unified Gradient Framework

Chenxin Tao , Honghui Wang , Xizhou Zhu , Jiahua Dong , Shiji Song , Gao Huang , Jifeng Dai

分类：计算机视觉

2021-12-09

自我监督的学习表明它有可能在没有人为注释的情况下提取强大的视觉表现。提出各种作品从不同的角度处理自我监督的学习：（1）对比学习方法（例如，MOCO，SIMCLR）利用阳性和阴性样品来引导训练方向; （2）不对称网络方法（例如，BYOL，SIMSIAM）通过引入预测器网络和止动梯度操作来摆脱阴性样本; （3）特征去相关方法（例如，Barlow Twins，ViCREG），而是旨在降低特征尺寸之间的冗余。这些方法在各种动机的设计损失功能中看起来非常不同。最终的准确度数也各不相同，其中不同的网络和技巧在不同的作品中使用。在这项工作中，我们证明这些方法可以统一成相同的形式。我们不是比较他们的损失函数，我们通过梯度分析推出统一的公式。此外，我们进行公平和详细的实验以比较他们的表现。事实证明，这些方法之间几乎没有差距，并且使用动量编码器是提高性能的关键因素。从这个统一的框架来看，我们提出了一个简单但有效的自我监督学习的简单但有效的渐变形式。它不需要内存银行或预测的网络，但仍然可以实现最先进的性能，并轻松采用其他培训策略。广泛的线性评估实验和许多下游任务也表现出其有效性。代码应释放。

translated by 谷歌翻译

Temporal-Spatial Causal Interpretations for Vision-Based Reinforcement Learning

Wenjie Shi , Gao Huang , Shiji Song , Cheng Wu

分类：计算机视觉

2021-12-06

深度加强学习（RL）代理在一系列复杂的控制任务中变得越来越精通。然而，由于引入黑盒功能，代理的行为通常很难解释，使得难以获得用户的信任。虽然存在一些基于视觉的RL的有趣的解释方法，但大多数人都无法发现时间因果信息，提高其可靠性的问题。为了解决这个问题，我们提出了一个时间空间因果解释（TSCI）模型，以了解代理人的长期行为，这对于连续决策至关重要。 TSCI模型构建了颞会因果关系的制定，这反映了连续观测结果与RL代理的决策之间的时间因果关系。然后，采用单独的因果发现网络来识别时间空间因果特征，这被限制为满足时间因果关系。 TSCI模型适用于复发代理，可用于发现培训效率高效率的因果特征。经验结果表明，TSCI模型可以产生高分辨率和敏锐的关注掩模，以突出大多数关于视觉的RL代理如何顺序决策的最大证据的任务相关的时间空间信息。此外，我们还表明，我们的方法能够为从时刻视角提供有价值的基于视觉的RL代理的因果解释。

translated by 谷歌翻译

On the Integration of Self-Attention and Convolution

Xuran Pan , Chunjiang Ge , Rui Lu , Shiji Song , Guanfu Chen , Zeyi Huang , Gao Huang

分类：计算机视觉

2021-11-29

卷积和自我关注是表示学习的两个强大的技术，通常被认为是两个与彼此不同的对等方法。在本文中，我们表明它们之间存在强烈的潜在关系，从而在这两个范式的大部分计算实际上以相同的操作完成。具体来说，我们首先表明，具有内核大小k x k的传统卷积可以分解为k ^ 2个单独的1x1卷积，然后是换档和求和操作。然后，我们将自我注意模块中的查询，键和值解释为多个1x1卷积，然后计算注意力权重和值的聚合。因此，两个模块的第一阶段包括类似的操作。更重要的是，第一阶段有助于与第二阶段相比的主导计算复杂性（信道大小的正方形）。这种观察结果自然导致这两个看似独特的范例的优雅集成，即享有自我关注和卷积（ACMIX）的益处的混合模型，同时与纯卷积或自我关注对应相比具有最小的计算开销。广泛的实验表明，我们的模型在图像识别和下游任务上持续改进了竞争基础的结果。代码和预先训练的型号将在https://github.com/panxuran/acmix和https://gitee.com/mindspore/models发布。

translated by 谷歌翻译